\chapter{Préparation des données}
Le but de la préparation est d'obtenir des données directement exploitables pour l'analyse. 
Les résultats de notre analyse dépendront de la qualité de ces données. 
Cette étape se fait en trois parties : nettoyage, intégration, transformation. 

Cependant, avant, il nous a fallu déterminer les paramètres que nous prendrons pour l'analyse. 

\section{Critères}
Nous avons choisi de conserver les données suivantes: 
\begin{itemize}
\item le nom de la protéine, pour pouvoir identifier la protéine après son analyse,
\item la taille de la protéine, %%% vs poids
\item le nombre de chaînes,
\item le nombre d'hélices alpha, de feuillets bêta, de coudes,
\item le pourcentage d'acides aminés hydrophobes,
\item son pHi ou point isoélectrique.
\item le nombre et le nom des domaines protéiques,
\item la séquence brute,
\item le nombre de cystéines,
\item le type de la protéine (nucléo, lipo-protéine, protéine simple...),


\end{itemize}

\subsection{Taille}
La longueur en acides aminés est sans doute le critère le plus simple que nous puissions prendre pour discriminer les protéines. 
En biochimie, la masse moléculaire est d'avantage utilisée, notamment dans le cadre des électrophorèses.
Cependant, la masse moyenne d'un acide aminé étant de 110 daltons, un lien quasi proportionnel existe entre ces deux valeurs. 
Donc, prendre la longueur donnée dans le fichier PDB nous évite le calcul de la masse qui n'apporterait rien de plus. 

\subsection{Nombre de chaînes}
Nous avons choisi le nombre de chaînes car nous savons que les protéines d'une même famille ont très souvent le même nombre de chaînes. 

\subsection{Structure secondaire}
Les protéines d'une même famille partagent, au moins en partie, la même structure secondaire, à savoir hélices alpha, feuillets bêta, coudes et ponts dissulfures. 
\paragraph{}
Les hélices, feuillets et coudes composent très souvent des domaines indispensables à l'activité de la protéines. 
La présence d'une proline implique un coude dans la structure de la protéine.
N'ayant pas accès au nombre de coudes par le fichier pdb, c'est le nombre de prolines qui nous permettra de le calculer. 

\subsection{Pourcentage d'acides aminés hydrophobes}
Le caractère hydrophobique d'une protéine est très lié à sa structure. 
En effet, les acides aminés hydrophobes fuient le contact avec tout milieu aqueux. 
Donc, à moins que la protéine ne soit inclue dans une membrane lipidique, ils auront tendance à s'enfouir à l'intérieur de la protéine, lui conférant ainsi une forme globulaire plutôt que fibrillaire. 

\subsection{Point isoélectrique}
Le point isoélectrique, au même titre que la masse moléculaire, est utilisé dans les électrophorèses pour séparer et identifier les protéines. 
Nous avons donc pensé qu'il constituerait un bon critère pour notre analyse. 

\subsection{Nombre et nom des domaines}
Les familles de protéines ont une grande similarité au niveau de leur composition en domaines.
Ce critère aurait été intéressant néanmoins cette information n'est présente que sous forme de remarques dont la forme peut varier selon l'annotateur.
Nous n'avons pas pu exploiter ces données.

\subsection{Séquence}
Dans le cadre d'une étude poussée, la comparaison des séquences permettrait d'affiner au mieux l'analyse.

\subsection{Cysteines}
Les ponts disulfures jouent un rôle essentiel dans le repliement de la protéine. Ils se forment entre deux cystéines.
Nous avons donc pensé récupérer le nombre de cystéines, cependant il ne reflèterait pas le nombre réel de ponts disulfures.
Nous avons donc abandonné ce critère.

\subsection{Type de protéines}
Il aurait été judicieux de séparer les protéines selon leur composition (nucléo, lipo-protéine, protéine simple...). Cependant, le fait des acides nucléiques dans nos séquences altérait nos calculs (pI).
Nous avons donc choisi de ne considérer que les protéines simples.
En outre, les lipoprotéines ne peuvent former de cristaux, donc elles ne sont pas retrouvées dans la PDB.



\section{Nettoyage}
Le nettoyage consiste à traiter le cas des données manquantes ou bruitées. 

\subsection{Données manquantes}
N'étant pas en mesure de combler les "trous" laissés par des manquantes, les instances incomplètes seront simplement ignorées. 

\subsection{Bruit}
Nous avons pu remarquer qu'il y avait quelques molécules d'ADN parmi les protéines de notre échantillon. 
Nous pouvons les considérer comme du bruit, des données qui ne nous intéressent pas dans notre analyse. 
Afin d'homogénéiser les données, nous avons donc décidé de les exclure. 


\section{Intégration}
Lorsque les données proviennent de plusieurs sources, elles ont besoin d'être intégrées, c'est à dire que les données redondantes doivent être supprimées lors de la mise en commun, les valeurs des champs doivent être mis dans le même format etc. 
\paragraph{}
Étant donné que toutes nos données proviennent de la même source, cette étape consistera simplement en le choix d'un mode de stockage pour nos données.
Deux options se sont offertes à nous : soit un stockage sous forme d'une base de données, soit un stockage sous forme de fichier. 
Nous avons opté pour l'enregistrement de nos données dans un fichier au format XML.


\section{Transformation}
La transformation correspond à l'étape où on peut normaliser les données, lisser les données trop précises, et où sont construits les attributs à calculer. 

\subsection {Calcul d'attributs}
Nous calculons les pourcentages d'acides aminés hydrophobes ainsi que le nombre de ponts disulfures. 

\subsection {Lissage des données}
Nous avons tronqué les valeurs calculées afin de ne garder que 4 chiffres après la virgule
Pour les données représentant un nombre fini, nous avons gardé des entiers.


%%% Local Variables: 
%%% mode: latex
%%% TeX-master: "../main"
%%% End: 
